对象分类事件相机稀疏性模型复杂性

文献阅读笔记系列一：事件相机3D重建的方法探究

标签：数码相机 3d

该系列是作者拜读相关学者成果做的一些笔记。

深入浅出理解相机标定原理

标签：相机标定 OpenCV

深入浅出理解相机标定原理

事件相机（event camera）概述与应用（随笔）

标签：自动驾驶深度学习

因此，事件相机在机器人技术和计算机视觉方面具有巨大潜力，可用于传统相机具有挑战性的场景，例如高速和高动态范围，以及快速机器人定位和可穿戴应用（如 AR/VR 和游戏）的理想传感器事件摄影机以高时间精度、...

一文尽览 | 计算机视觉中的鱼眼相机模型及环视感知任务汇总！

标签：算法计算机视觉机器学习

本论文致力于为研究人员和工程算法人员提供汽车鱼眼相机感知的一些参考，包括鱼眼相机模型，以及各种感知任务，最后，讨论了常见的一些挑战和未来研究方向。

如何提升AI模型的部署性能？ Maximizing AI Model Deployment Performance

标签：自然语言处理人工智能语言模型

这些模型可以帮助我们解决很多实际问题。但是由于训练成本高、部署时间长等问题，使得它们的应用受到了限制。为了提升模型的推广效率，降低其部署成本，各大公司都致力于对其进行优化。那么如何提升AI模型的部署...

(ICML-2021)从自然语言监督中学习可迁移的视觉模型

标签： CLIP 视觉语言大模型大模型

这种受限的监督形式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的替代方案，它利用了更广泛的监督来源。我们证明，预测哪个标题与哪个图像...

【扩散模型】论文精读：VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

标签：计算机视觉深度学习扩散模型

我们提出了 VLOGGER，这是一种从一个人的单个输入图像生成音频驱动的人类视频的方法，它建立在最近生成扩散模型的成功之上。我们的方法包括 1) 随机人到 3d 运动扩散模型，以及 2) 一种新颖的基于扩散的架构，该架构...

【占用网络】SurroundOcc：基于环视相机实现3D语义占用预测 ICCV 2023

标签：占用网络 SurroundOcc 环视相机

本文分享“占用网络”方案中，来自ICCV 2023的SurroundOcc，它基于环视相机实现3D语义占用预测。使用空间交叉注意力将多相机图像信息提升到3D体素特征，即3D体素Query到2D图像中查询融合特征的思想。然后使用3D卷积...

CVPR 2023 ，只需简单的几步，2D视频变3D？最新视频创作AI模型！

标签：音视频 3d 人工智能

文中解决了从描述复杂动态场景的单目视频中合成新视图的问题。作者提出了一种新方法，该方法不是在 MLP 的权重内对整个动态场景进行编码，而是该方法通过采用基于体积图像的渲染框架，该框架通过以场景运动感知的方....

点云从入门到精通技术详解100篇-基于改进动态图卷积的点云分类模型

标签：分类数据挖掘人工智能

特征信息的损失，致使分类的准确率和鲁棒性不高。深度学习方法在图像领域的发展已较为成熟，但在三维点云数据上的应用相对不成熟。到的三维数据能够提供丰富的几何、形状和比例信息，为机器更好地了解周围的环境。集...

三维重建：基于RGB-D相机的三维重建总览(静态&动态)

标签：算法计算机视觉机器学习

点击上方“计算机视觉工坊”，选择“星标”干货第一时间送达来源丨三维匠心编辑丨3D视觉开发者社区✦导读✦本文作者对基于RGB-D相机的三维重建做了系统性的总结与分析，对各类算法都有简要的介绍，逻辑清晰，讲解...

干货 | 深度学习的可解释性研究（一）：让模型「说人话」

标签：可解释性深度学习

在建模之前的可解释性方法建立本身具备可解释性的模型在建模之后使用可解释性性方法作出解释关于 BIGSCity参考文献不以人类可以理解的方式给出的解释都叫耍流氓，因此，我们要让模型「说人话」。只要记住这三个字，...

点云从入门到精通技术详解100篇-针对三维点云分类神经网络模型的不可感知对抗攻击

标签：分类神经网络数据挖掘

点云的获取方式和表示形式，三维点云分类神经网络模型的数学表述形式和常见模型。获取三维数据的硬件设备的成熟和价格的降低，三维数据的应用越来越广泛。其中，点云分类任务的主要目的是预测点云数据的所属类别，...

计算机视觉中的transformer模型创新思路总结

标签：大数据算法编程语言

点击上方“计算机视觉工坊”，选择“星标”干货第一时间送达作者丨仿佛若有光来源丨CV技术指南编辑丨极市平台导读本文回顾了ViT的结构，总结了计算机视觉中的transformer的主要改进思...

DROID-SLAM: 用于单目双目RGBD相机的深度视觉SLAM

标签：算法大数据计算机视觉

作者丨Clark@知乎来源丨https://zhuanlan.zhihu.com/p/479534098编辑丨3D视觉工坊论文信息@article{teed2021droid, title={Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras}, ...

一文详解AI模型部署及工业落地方式

标签：大数据编程语言人工智能

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达Hello大家好，我是老潘，好久不见各位~最近在复盘今年上半年做的一些事情，不管是训练模型、部署模型搭建服务，还是写一些组件代码等，零...

MyDLNote-Event : 【详细解读】2020 ECCV Learning to See in the Dark with Events 用事件相机，看见黑夜...

标签：深度学习

Learning to See in the Dark with Events Abstract ...Imaging in the dark environment is important for many realworld applications like video surveillance. Recently, the development of Event ...

用不确定性来解释和调试你的深度学习模型

标签：深度学习模型

这种复杂性带来了新的挑战，包括模型的可解释性。可解释性对于构建更强大且能抵抗对抗攻击的模型至关重要。此外，为一个新的，未经过深入研究的领域设计模型具有挑战性，而能够解释模型正在做什么可以帮助我们完成...

MUTR3D：通过3D到2D查询的多相机跟踪框架

标签：算法大数据计算机视觉

引言3D跟踪在自动驾驶、机器人、虚拟现实等感知系统中至关重要，其具体任务包括...当系统使用多相机进行3D跟踪时，会出现检测精度降低、复杂场景中的遮挡和模糊、边界对象丢失等问题。在2022 CVPR论文"MUTR3D:通过...

文本分类优化方法

标签：分类深度学习

文本分类是NLP的基础工作之一，也是文本机器学习中最常见的监督学习任务之一，情感分类，新闻分类，相似度判断、问答匹配、意图识别、推断等等领域都使用到了文本分类的相关知识或技术。文本分类技术在机器学习的...

EfficientFormer | 苹果手机实时推理的Transformer模型，登顶轻量化Backbone之巅

标签：算法卷积网络

点击上方“计算机视觉工坊”，选择“星标”干货...然而，由于大量的参数和模型设计，例如注意力机制，基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此，应用部署 ViT 具有很大的挑战性，尤其是在移动设备等资源受...

【第43篇】CLIP：从自然语言监督中学习可迁移的视觉模型

标签：计算机视觉深度学习神经网络

最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限制的监督形式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从有关图像的原始文本中学习是一种很有前途的...

综述|PointNet、PointNet++、 F-PointNet基于深度学习的3D点云分类和分割

标签：大数据 python 计算机视觉

点击下方卡片，关注计算机视觉工坊公众号干货第一时间送达作者：黎国溥，3D视觉开发者社区签约作者，程序员宅基地专家，华为云-云享专家。编辑：3D视觉开发者社区前言Poin...

单目3D目标检测方法综述——直接回归方法、基于深度信息方法、基于点云信息方法

标签：单目3D目标检测综述直接回归方法

本文综合整理单目3D目标检测的方法模型，包括：基于几何约束的直接回归方法，基于深度信息的方法，基于点云信息的方法。万字长文，慢慢阅读~ 直接回归方法涉及到模型包括：MonoCon、MonoDLE、MonoFlex、CUPNet、...

CVPR2022|稀疏融合稠密：通过深度补全实现高质量的3D目标检测

标签：算法计算机视觉机器学习

作者丨花椒壳壳@知乎来源丨https://zhuanlan.zhihu.com/p/500409423编辑丨3D视觉工坊论文标题：Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion作者单位：浙大等论文：...